Day07 - 高可用性與可靠性 High Availability & Reliability

15th鐵人賽可觀測性

Marcus

2023-09-22 05:39:25

2934 瀏覽

分享至

Day07 - High Availability & Reliability

大家好，我是伐伐伐伐木工

今天要跟大家分享在討論系統中常會聽到的概念可用性(High Available)與可靠性(Reliability)，本篇內容的重點如下

可用性與可靠性

可用性與可靠性

當我們在討論系統時，使用者通常只會遇到兩種情況，它「可以使用」或「無法使用」。「可以使用」是使用者順利完成他們的目標；不可用則是無法使用其功能，其背後可能是使用者自己的錯誤、系統 Bug 或是環境問題，例如網路瞬斷、設備異常或遭受攻擊。

接著回到主題，根據維基百科關於兩者的定義

可用性 : 系統在給定時間運行的概率，即設備實際運行的時間佔其應運行的總時間的百分比。
可靠性 : 系統在某個給定時間t內產生正確輸出的概率

試著透過翻譯蒟蒻翻譯如下

可用性 : 正常運行時間的百分比(成功)
可靠性 : 特定的時間內，系統正常執行成功的機率(失敗)

兩者都是屬於抽象的概念，為了更好理解可用性與可靠性，可以使用兩個指標來衡量

Concept	Metric	Example
Availability	百分比	99.90%
Reliability	平均無故障時間 (MTBF)	20天10小時12分鐘

備註 :

平均故障間隔時間(MTBF) : 總正常運行時間/故障數量。
平均修復時間(MTTR) : 總停機時間/故障數量

可靠性衡量系統正確運行的能力，包括避免數據損壞，而可用性衡量系統可用的頻率，即使它可能無法正常運行。

共同特性

可用性與可靠性都是服務重要的關鍵特性，兩者具有一些共用的特性，這些特性有助於確保系統的穩定性，以下是列出個人覺得兩者共同具備的重要特性

Monitoring and Alerting
Automation
Redundancy

監控機制跟告警機制(Monitoring and Alerting)，目的是當系統或服務有不穩定時可以在第一時間知道並進行處理，提高系統的穩定性與停機時間。自動化(Automation)可以加速故障恢復的時間，並減少在緊急問題人為錯誤的可能性。Redundancy 是什麼呢 ? 以下就針對 Redundancy 進行更多的說明。